УЧЕТ ИНТЕГРАЛЬНЫХ ОГРАНИЧЕНИЙ В УСЛОВИЯХ ОПТИМАЛЬНОСТИ

Условия оптимальности (2.21) и (2.30) получены в предположении, что управление u(t) определено в замк­нутой области Uy т. е. не превосходит, например, в каж­дый момент времени определенной величины.

В задаче, рассмотренной в 2.1, существенную роль иг­рают также интегральные или изопериметрические огра­ничения, которые представляются в виде неравенств:

Подпись: ;в М J •/„+,(*, и, t)dt <см Jo (2.38) J /«+*(•*. и. t)dt^c, t о (2.39) или

где см и с известные постоянные величины, вектор X удовлетворяет системе уравнений (2.2), скалярные функ­ции /п+2 знакоопределены, непрерывны и дважды диф­ференцируемы по переменным х, и, t в области их опре­деления. Операция математического ожидания в (2.38) берется по начальным значениям фазовых координат х°, случайным возмущениям и ошибкам измерений.

Если обозначить

•^л+2 — /Л+2(-*. Я* 0? -*71+2 (^о) — (2.40)

где хп+2 компонента расширенного вектора фазовых ко­
ординат х, то неравенства (2.38) и (2.39) можно запи­сать в компактном виде

M[xn+2(iB)]KcK; (2.41)

xn+i(tB)<c — (2.42)

Различие между ограничениями (2.41) и (2.42) состоит в том, что второе из них должно выполняться для каж­дой реализации случайных начальных условий и возму­щений, а первое ограничивает значение фазовой коорди­наты только в среднем и может нарушаться в опреде­ленных реализациях. Поэтому условие (2.42), эквивалентное ограничению в детерминированных зада­чах, является более жестким, чем ограничение (2.41), и не может быть выполнено, в частности, при неограничен­ном законе распределения хп+2 Для конечной констан­ты с. Для учета ограничений (2.41) и (2.42) в условиях оптимальности (2.30) используем метод перехода от замкнутой области изменения значения координаты хп+2 (^в) > определяемой неравенствами, к открытой об­ласти изменения координаты [19].

Подпись: Хм{Хп+2): УЧЕТ ИНТЕГРАЛЬНЫХ ОГРАНИЧЕНИЙ В УСЛОВИЯХ ОПТИМАЛЬНОСТИ Подпись: (2.43)

Для ограничения (2.42) это может быть осуществлено с помощью функции Хм координаты xn+i(tB) такой, что

если М[хп+2((в)]>См

при изменении х’п+2 в открытой области.

Используя далее метод множителей Лагранжа и учи­тывая, что вариация

Ш Ч+8(0. (2- 44)

0Хп+2

получим аналогично детерминированному случаю [19], что постоянный множитель Лагранжа я|)п+2 должен удов­летворять условию

4W. ^1уЯ+’2-=0- (2.45)

0Хп+г

С учетом дополнительного уравнения (2.40), определяю­щего компоненту хп+2 вектора фазовых координат, функ­ция Гамильтона (2.28) запишется в виде

Н(х, ф, и, *)=фг/(*> и, V, 0+Ч>л+«/«+і(*, и. *),

Подпись: (2.46)
image34

а условие оптимальности (2.30) определится уравнением

Подпись: где Н- определяется выражением (2.46). Сравнение условий оптимальности с учетом ограниче-

т. е. когда условие (2.41) выполняется при строгом не­равенстве (2.43) множитель фп+2 в (2.45) должен быть равен нулю и условия оптимальности (2.47) совпадают с (2.30). Поэтому ограничение (2.41) не влияет на вид условий оптимальности, если при оптимальном управле­нии не нарушается неравенство (2.41). Если же

=0, то фп+2, как следует из (2.45), является не-

дхп+2

Подпись: постоянный множитель Лагранжа Фл+« < °- УЧЕТ ИНТЕГРАЛЬНЫХ ОГРАНИЧЕНИЙ В УСЛОВИЯХ ОПТИМАЛЬНОСТИ

определенной величиной, в общем случае отличной от нуля. При этом условия оптимальности управления u(t) изменяются и принимают вид (2.47), что является след­ствием нарушения ограничения (2.41) согласно опреде­лению функции хм [см. условия (2.43)]. Таким образом, ограничение в виде неравенства (2.41) может не учиты­ваться при оптимизации, если при оптимальном управ­лении, найденном без учета (2.41), оно не нарушается. В противном случае оптимальная задача должна быть решена снова с учетом множителя Лагранжа фп+2- Заметим, что при

Действительно, поскольку при фп+2>0 слагаемое в (2.46)

Подпись: (2.50)tyn+if

в (2.46) и максимум функции (2.47) будет достигнут при максимальных значениях u(t), т. е. лежащих на границе области U при каждом значении t. Так как условие (2.41) имеет смысл только, если оно не выполняется при гранич­ных значениях управления (в противном случае оно не может быть нарушено), неравенство в (2.41) не может быть обеспече’но При фп+2>0-

Неравенство (2.39) или (2.42), ограничивающее об­ласть значений интеграла от фазовых координат и уп­равляющего воздействия для каждой реализации на­чальных условий и возмущений, может быть учтено при оптимизации управления и (і) аналогично (2.38).

Предположим, что для каждой реализации аргумен­тов функция fn+2 ограничена и существует случайное число фп+2 (множитель Лагранжа) в законе управления, выбором которого можно обеспечить выполнение (2.42). При этом фп+2 является функционалом от |(t), n(t) и случайных начальных условий х°.

Аналогично предыдущему может быть введена такая функция х случайной координаты •Са (У. что

W*.)=X K+t(0] (2.51)

И

д. Х при *я+2 (*„)<£,

дхп+2

а также

xK+a(0]=*j-3————— 0, (2.52)

0хп+2

Подпись: дХ х’п+»(<■)] дх'п+2 (*„) Подпись: =0. Подпись: (2.53)

если х„+2(^в)^с. При этом решение задачи выбора уп­равления определяется в каждой конкретной реализа­ции условием

УЧЕТ ИНТЕГРАЛЬНЫХ ОГРАНИЧЕНИЙ В УСЛОВИЯХ ОПТИМАЛЬНОСТИ Подпись: /0,

Из (2.53) следует, что в зависимости от реализации 1(0, я(0> х° задачу надо решать либо без учета огра­ничения (2.42), если

либо с учетом (2.42) со знаком равенства, если

K-nL _о.

дх’п+2

При этом оптимальное управление u(t) определяется из условия максимума математического ожидания функции Н (2.47), где фп+2 является функционалом случайного вектора фазовых координат и управления.

Для решения задачи существенно, что фп+2 является постоянной, величиной. Поэтому вид функциональной за­висимости от параметров управления не меняется во вре­мени и может быть определен на всем интервале (t0, tb), если он известен, по крайней мере, в один момент вре­мени.

Такая возможность имеется, если координаты и уп­равление, входящие в функцию /п+2ІХ, и, і), измеряются точно (известны) в процессе управления. При этом в по­следний момент получения информации г (tn) левая часть (2.39) известна и фп+2 не является случайной по отношению к условному математическому ожиданию при заданных значениях реализации вектора г на интер­вале {to, ^п) •

В момент tn оптимальное управление определяется из условия

max М (ФT{tn)f{x{tn и (*,), *„)+

И(/Л)6У

+Фл+а/л+а(л;(^л)» в(4)» ^л)| О=0’ (2.54)

Ро/

где фп+2 может быть вынесен а за знак математического ожидания. Определенное из (2.54) u{tn) является функ­цией фп+2- Подставляя u(tn) в соотношение (2.39), выра­зим ф„+2 через прошлые значения фазовых координат управления и измеряемого вектора г. При оптимизации в Другие моменты Времени U<t<tn фп+2 является уже известным функционалом от параметров управления. При этом успех решения задачи определяется возмож­ностью нахождения условного математического ожида­ния от функции Н.

Очевидно, если в функцию /п+2 в соотношение (2.39) входят составляющие вектора фазовых координат, кото­рые в процессе управления измеряются с ошибками, ус­ловие (2.39) может быть удовлетворено лишь в вероятно­
стном смысле. Например, можно потребовать, чтобы ве­роятность

Подпись: (2.55)Рхп+ 2^в) С ^ 1 ®*.

где е>0 — малая величина. При этом условие (2.39) сводится к условию (2.38).

Таким образом, при интегральных (изопериметриче — ских) ограничениях типа неравенства в статистических задачах изменяется вид Гамильтониана Н аналогично детерминированному случаю [6].